纸质档案数字化的基本环节主要包括:数字化前处理、目录数据库建立、档案扫描、图像处理、数据挂接、数字化成果验收与移交等。
1. 数字化前处理
1.1 确定扫描页
原则上应将确定为数字化对象的纸质档案全部扫描,不宜进行挑扫。如有不需要扫描的页面应加以标注。
1.2 编制页号
1.2.1 应对没有页号或页号不正确的档案重新编制页号。
1.2.2 重新编制页号时,应在统一位置书写页号,且不压盖档案内容。
1.2.3 书写页号所使用的笔、墨等不应破坏档案原件或对档案长期保存造成影响。
1.2.4 应将破损页面、缺页等特殊情况进行登记。
1.3 目录数据准备
1.3.1 按照目录数据库建立时制定的数据规则,对照档案原件内容,规范档案中的目录内容。
1.3.2 对需在目录数据库中进行标记的情况进行标记。
1.4 拆除装订
应以对纸质档案的保护为原则确定是否拆除装订,如需拆除装订物,应注意保护档案不受损害,并对排列顺序不准确的档案进行重排。特殊装订且拆除装订后需恢复的档案,在拆除装订物时应采用拍照等方式记录档案原貌,以便于恢复。
1.5 技术修复
1.5.1 破损严重或其他无法直接进行扫描的纸质档案,应先由专业技术人员进行技术修复。
1.5.2 折皱不平影响扫描质量的纸质档案应先进行压平等相应技术处理。
2. 目录数据库建立
2.1 应制定目录数据库数据规则,包括数据字段长度、字段类型、字段内容要求等。目录数据库数据规则的制定应符合DA/T18对档案著录的要求。在纸质档案目录准备与目录数据库建立工作中均应严格遵守。
2.2 数据库选择应考虑可转换为通用数据格式,以便于数据交换。
2.3 数据库结构的设计应特别注意保持档案的内在联系,有利于纸质档案数字化成果的管理和利用。
2.4 将纸质档案数字化前处理工作中对纸质档案目录进行修改、补充的结果录人数据库,形成准确、完整的目录数据。
2.5 可采用计算机自动校对与人工校对相结合的方式,对目录数据的质量进行检查,包括著录项目的完整性、著录内容的规范性和准确性等。发现不合格的数据应及时进行修改。
3 档案扫描
3.1 基本要求
档案扫描应根据纸质档案原件实际情况、数字化目的、数字化规模、计算机网络和存储条件等选择相应的扫描设备,进行相关参数的设置和调整。参数的设置和调整应保证扫描后数字图像清晰、完整、不失真,图像效果最接近档案原貌。
3.2 扫描设备
3.2.1 扫描设备的选择应特别注意对档案实体的保护,尽量采用对挡案实体破坏性小的扫描设备进行数字化。
3.2.2 超出所使用扫描仪扫描尺寸的档案可采用更大幅面扫描仪进行扫描,也可以采用小幅面扫描仪分幅扫描后进行图像拼接的方式处理。分幅扫描时,相邻图像之间应留有足够的重叠,并且采用标板等方式明确说明分幅方法;若后期采用软件自动拼接的方式,重叠尺寸建议不小于单幅图像对应原件尺寸的1/3。
3.2.3 对于极其珍贵且尺寸不规则的档案,为方便直观显示原件大小,可采用标板、标尺等方式标识原件大小等信息。
3.2.4 应遵循相关设备的使用规律进行定期维护、保养。
3.3 扫描色彩模式
3.3.1 为最大限度保留档案原件信息,便于多种方式的利用,宜全部采用彩色模式进行扫描。
3.3.2 页面中有红头、印章或插有照片、彩色插图、多色彩文字等的档案,应采用彩色模式进行扫描。
3.3.3 页面为黑白两色,并且字迹清晰、不带插图的档案,也可采用黑白二值模式进行扫描。
3.3.4 页面为黑白两色,但字迹清晰度差或带有插图的档案,也可采用灰度模式扫描。
3.4 扫描分辨率
3.4.1 扫描分辨率的选择,应保证扫描后图像清晰、完整,并综合考虑数字图像后期利用方式等因素。
3.4.2 扫描分辨率应不小于200dpi。如文字偏小、密集、清晰度较差时, 建议扫描分辨率不小于300dpi。
3.4.3 如有计算机输出缩微摄影(COM)、仿真复制、印刷出版等其他用途时, 可根据需要调整扫描分辨率。需要进行COM输出的档案,扫描分辨率建议不小于300dpi;需要进行高精度仿真复制的档案,扫描分辨率建议不小于600dpi;需要进行印刷出版的档案,可结合档案幅面、印刷出版幅面、印刷精度要求等选择合适的分辨率。
3.5 存储格式
3.5.1 纸质档案数字图像长期保存格式为TIFF、JPEG或JPEG 2000等通用格式,
图像压缩率的选择可根据实际应用的需求而定。
3.5.2 纸质档案数字图像利用时,也可从网络浏览速度、易操作性、存储空间占用等方面进行综合考虑,
将图像转换为OFD、PDF等其他格式。
3.5.3 同一批档案应采用相同的存储格式。
3.6 图像命名
3.6.1 应以档号为基础对数字图像命名。图像命名方式的选择应确保图像命名的唯一性。
3.6.2 建议将数字图像存储为单页文件,并按档号与图像流水号的组合对图像命名。
3.6.3 数字图像确需存储为多页文件时,可采用该档案的档号对图像命名。
3.6.4 应科学建立纸质档案数字图像的存储路径,确保数据挂接的准确性。
4 图像处理
4.1 图像拼接
对分幅扫描形成的多幅数字图像,应进行拼接处理,合并为一个完整的图像,以保证纸质档案数字图像的整体性。拼接时应确保拼接处平滑地融合,拼接后整幅图像无明显拼接痕迹。
4.2 旋转及纠偏
对不符合阅读方向的数字图像应进行旋转还原。对出现偏斜的图像应进行纠偏处理,以达到视觉上基本不感觉偏斜为准。
4.3 裁边
如需对数字图像进行裁边处理,应在距页边最外延至少2mm~3mm处裁剪图像。
4.4 去污
如需对数字图像进行去污处理,以去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质,应遵循展现档案原貌的原则,处理过程中不得去除档案页面原有的纸张褪变斑点、水渍、污点、装订孔等痕迹。
4.5 图像质量检查
4.5.1 数字图像不完整、无法清晰识别或图像失真度较大时,应重新扫描。
4.5.2 对于漏扫、重扫、多扫等情况,应及时改正。
4.5.3 数字图像的排列顺序与档案原件不一致时,应及时进行调整。
4.5.4 对数字图像拼接、旋转及纠偏、裁边、去污等处理情况进行检查,发现不符合图像质量要求时,应重新进行图像处理。
5 数据挂接
5.1 应借助相关软件对数据库中的目录数据和与其对应的纸质档案数字图像进行挂接,以实现目录数据与数字图像的关联。
5.2 逐条对挂接结果进行检查,包括目录数据与纸质档案数字图像对应的准确性、已挂接数字图像与实际扫描数量的一致性、数字图像是否能正常打开等,发现错误及时进行纠正。
6 数字化成果验收与移交
6.1 验收方式
6.1.1 建议档案部门成立专门的验收组对纸质档案数字化成果进行验收。
6.1.2 应采用计算机自动检验与人工检验相结合的方式对纸质档案数字化成果进行验收检验。
6.2 验收内容
6.2.1 纸质档案数字化成果包括数字图像、档案目录数据、元数据、数字化工作中产生的工作文件、存储载体等。
6.2.2 应对目录数据进行验收,主要包括数据库中各条目的内容、格式等的准确程度以及必填项是否填写等。
6.2.3 应对元数据进行验收,主要包括元数据元素的完整性和赋值规范性等。
6.2.4 应对数字图像进行验收,主要包括数字化参数、存储路径、命名的准确性、图像的完整性、排列顺序的准确性、图像质量等。
6.2.5 应对数据挂接进行验收,主要包括目录数据和与其对应的数字图像的挂接的准确性等。
6.2.6 应对工作文件进行验收,主要包括工作文件的完整性、规范性等。
6.2.7 应对存储载体进行验收,主要包括载体的可用性、有无病毒等。
6.3 验收指标
能够采用计算机自动检验的项目应采用计算机自动检验的方式进行100%检验,检验合格率应为100%。对于无法用计算机自动检验的项目,可根据情况以件或卷为单位采用抽检的方式进行人工检验。抽检比率不得低于5%,对于数据库条目与数字图像内容对应的准确性,抽检合格率应为100%,其他内容的抽检合格率应不低于95%。
6.4 验收结论
6.4.1 每批纸质档案数字化成果质量检验达到6.2和6.3的要求,予以验收“通过”。验收未通过应视情况进行返工或修改后,重新进行验收。
6.4.2 验收完成后应经验收组成员签字。验收“通过”的结论,应经相关领导审核、签字后方有效。
6.5 移交
验收合格的数据应按照纸质档案数字化工作方案及时移交,并履行交接手续。
7 档案归还入库
7.1 档案装订
纸质档案数字化工作完成后,拆除过装订物的档案如需装订,应注意保持档案原貌,做到安全、准确、无遗漏。
7.2 档案归还入库
按照档案人库相关要求对纸质档案进行处理和清点,并履行档案人库手续。